查看原文
其他

机器学习与经济学研究

李华芳 读品贩子 2021-01-24

----获取更多读品,点击上方【读品贩子】----


  • 机器学习与老中医

 

这篇短文想谈谈机器学习(MachineLearning)与经济学研究的关系。在谈机器学习之前,让我先举个老中医的例子。在中医领域,大家普遍觉得老中医比较好。其中一个重要的理由是老中医有经验,望闻问切多年,累积了大量的“经验数据”,然后可以据此得出一个较为准确的判断。所以大家普遍也就信任老中医多一点。

 

但从数据积累的角度看,老中医这种模式是应该被淘汰的,因为不符合科学进展的趋势。所以中医也叫传统医学,西医才是现代医学。那么西医作为现代医学到底有什么特征,从而和中医区分开来了呢?主要有两点,一是累积和存储数据的方式比中医更快;二是数据的精准度,尤其是经过医学实验得到的数据的精准度,远远超过中医。所以西药的计量单位比中药的计量单位要精确。

 

医学昌明,发展至今,很多疑难杂症要处理的数据量就更大了。由于在纯粹的计算层面,人脑的计算力有限,此时就恰恰可以借助机器的力量来进行大规模的计算,而人则在决策层面起主导作用。

 

与靠老中医凭借经验“望闻问切”不同,现代医学已经可以用机器学习来处理大量的数据。这种机器学习模式至少在两个方向上与老中医模式完全不同。第一个方向是收集处理数据的方式,老中医靠望闻问切收集数据,而机器学习则是靠算法学习已有的数据,从而去推断和预测将来发生的案例;第二个方向是收集完数据后的处理方式,老中医靠望闻问切收集完数据后,能够进行对比的无非是一生中其阅读和经历过的病例,能比对上千例,就已经是很了不起的功夫了。但对机器学习来说,靠有效算法能在极短的时间里遍历所有人类历史上曾经有过的相似案例,作出病情诊断,甚至有时候比医生更有效。这也正是ObermeyerEmanuel2016年的《新英格兰医学期刊》上发表的《预测未来—大数据、机器学习和临床医学》一文中提到的机器学习能够推动医学发展。

 

 

  • 经济学研究为什么要关心机器学习

 

那么到底什么是机器学习?经济学研究为什么要关心机器学习呢?让我先简单介绍下什么是机器学习。机器学习简单来说就是你已经有一堆数据,通常而言是很大的数据,如果靠人力来进行计算成本非常高,然后我们从这一大堆数据中拿出一部分数据让机器去学习,这学习当然要靠算法。学完了之后呢,我们就让机器去根据学到的东西去分析剩下的数据或者未来产生的相似的数据。这种叫做监督式机器学习。另外一种叫做无监督式机器学习,主要是用于把一大堆数据进行分类。不管何种方式,机器可以让我们节省大量的人力财力,然后把主要精力集中在做决策上了。

 

当然说起来,机器学习这件事对经济学家来说,也不是什么新鲜事。1978年的诺贝尔经济学奖得主司马贺(Herbert Simon)早就在其著名的《管理行为》一书中讲过这件事了。在《管理行为》一书第一版中,司马贺就谈及计算机对决策和管理的影响。在第四版的扩展评论中,司马贺进一步指出计算机在数字计算方面的功能会变得非常强大,而且随着计算能力日益增强,我们还会发现计算机的新功能。其中就包括利用大型数据库以成本较低的方式获取与特定任务相关的信息,也就是现在火爆的大数据分析。而机器学习,司马贺推测将会让计算机成为各个领域的专家,例如医疗诊断、工程设计、下棋和法律搜索等应用领域,计算机能都达到人类的专业水准。这也算是对2017年“阿尔法狗(AlphaGo)”连续战胜所有顶尖的围棋高手的一个预言。

 

正如司马贺说的那样,信息会极其丰富,数据会很大,但人对信息的关注时间是稀缺的,并且人的理性是有限的。对经济学来说,主要就是研究决策,关于稀缺资源如何有效配置的决策。因此一个最重要的考虑是,怎么能让人在浩瀚如海的信息中迅速找到与任务相关的信息,并进行处理。这无疑就是一个重要的经济学议题。所以说不是经济学为什么要关心机器学习的问题,而是机器学习本身就是一个“经济学议题”。

 

(图:2007年克拉克奖得主Susan Athey) 


  • 经济研究用机器学习的例子

 

稀缺资源如何配置是经济学研究的一个核心议题。比如说对城市的管理者而言,如何配置稀缺的消防检查员去检查房子的消防设施是不是完备,是不是起作用,就是一个很要紧的问题。如果消防检查员天天检查的都是消防设施出问题几率很低的房子,那么就意味着浪费了检查员的时间,也意味着浪费了纳税人的钱。如果检查员去检查的是有消防隐患的房子,那么就能更有效率检测出问题,然后促使房子的业主进行整改和预防,消除火灾隐患,让城市更加安全。

 

所以本质上就是要判定哪些房子更容易出现消防隐患,然后派人去检查一下就更有针对性,节省时间精力不说,也能确保城市更加安全。纽约市消防部门就用一个叫“火险预警(Firecast)”的机器学习系统,来预测到底哪些房子更有可能有消防隐患。这就需要看大量的变量,有一些变量很明显,例如房子建造的时间,年代越久,线路老化,年久失修等问题就越严重。但另一些变量不太明显,例如房子是不是长期处于无人居住状态,有没有交房产税等。后面这些不明显的变量,消防部门本来是不会去关注的。但长期无人居住、没有及时交房产税,可能意味着房产无人照料,可能有隐患也没有人发现。

 

纽约市的这个“火险预警”从一开始只有5个政府部门关于房子的数据到现在有17个政府部门的数据,而且加入了更多的预测变量,可以很快根据算法计算出那些更有可能有火灾隐患的房子。现在除了纽约,加州和新奥尔良等地也采用类似的机器学习系统来帮助降低火灾隐患,提高城市安全。

 

对城市管理者而言,还有一个问题就是派卫生监督员去检查餐馆的卫生问题,确保食品安全。这个问题与分配消防检查员类似,都是要检查的地方多,但检查员人数很少的问题。哈佛大学的格莱泽(Edward Glaeser)等人在《美国经济评论:论文速递》第106卷第5期,发表了一篇名为《众包城市政府》的文章,发现利用好的机器学习算法,可以提高30-50%的检查准确率。那么他们是怎么做到的呢?

 

他们利用的是Yelp的点评数据。Yelp是美国一家点评餐馆的网站,在中国也有类似的大众点评网。在Yelp上消费者在餐馆消费完之后,通常不仅会给评分,而且会留下评论。评论的内容除了菜好不好吃之外,还包括上餐速度,服务员的服务态度,餐馆干不干净等其他五花八门的内容。每一项内容实际上都可以被标记成一个变量,然后利用机器学习,来筛选出那些最有可能违反卫生安全规定的餐馆,再派检查员过去看一看,就有效多了。

 

传统的方式就是派人去随机抽查,尽管也不能说完全无效,但效率总归还低很多。因为随机抽查,你是从所有餐馆里抽一部分去查。而应用机器学习后,是在有可能出问题的餐馆里去查,而且可以从那些最有可能出问题的餐馆查起,自然检查的效率就能提高。格莱泽等人还介绍了他们怎么来寻找更好的机器学习算法,他们采用的是让不同人组队参赛,然后用比赛的方式决出哪一种算法能更有效预测出那些更有可能违反卫生安全的餐馆。这种众包的模式也是GoogleFacebook这些公司为解决技术难题经常采用的手段。

 

当然用机器学习来预测和经济学探究变量背后的因果关系之间,还是有很大的不同的。斯坦福大学的阿西(Susan Athey)最近在《科学》杂志发表《超越预测:用大数据解政策问题》一文就提醒研究者必须要注意其中的差别。

 

比方说你虽然知道有一个房子有很高的火灾隐患,但如果仔细探究背后的原因,你可能会发现其实不光是线路老化这个表面问题,还有可能是因为其他的因素,例如历史文物或法律纠纷等,导致去重新布线消除安全隐患非常困难。而另一处房子可能安全隐患比较低,但却很容易查到并且略微改进就能消除隐患,极大提高消防安全。但这种背后的“原因”靠预测式的机器学习,就学不到了。

 

总之机器学习还是一个不断发展的新领域,在经济学里的应用也处于起步阶段。我们要拥抱新技术,但也不可盲目,理性要求我们用审慎的眼光对待机器学习。

 

《经济学家茶座》即出。

 


【睡不着?长按二维码处学习】


其实并没有什么赞赏

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存